home *** CD-ROM | disk | FTP | other *** search
/ Meeting Pearls 1 / Meeting Pearls Vol 1 (1994).iso / installed_progs / text / faqs / os-research.part2 < prev    next >
Encoding:
Internet Message Format  |  1994-05-02  |  32.9 KB

  1. Subject: Comp.os.research: Frequently answered questions [2/2]
  2. Newsgroups: comp.os.research,comp.answers,news.answers
  3. From: bosullvn@tcd.ie (Bryan O'Sullivan)
  4. Date: 1 May 1994 08:59:07 GMT
  5.  
  6. Archive-name: os-research/part2
  7. Version: $Revision: 1.14 $
  8. Last-Modified: $Date: 1994/04/29 22:00:40 $
  9.  
  10.         Answers to frequently asked questions
  11.           for comp.os.research: part 2 of 2
  12.  
  13.               Copyright (C) 1994
  14.                Bryan O'Sullivan
  15.  
  16.  
  17.  
  18.               TABLE OF CONTENTS
  19.  
  20.  
  21. 1.     Available software
  22. 1.1.   Where can I find Unix process checkpointing and restoration packages?
  23. 1.2.   What threads packages are available for me to use?
  24. 1.3.   Where can I find operating systems distributions?
  25. 1.3.1. Distributed systems and microkernels
  26. 1.3.2. Unix lookalikes
  27. 1.3.3. Others
  28.  
  29. 2.     Performance and workload studies
  30. 2.1.   TCP internetwork traffic characteristics
  31. 2.2.   File system traces
  32. 2.3.   Modern Unix file and block sizes
  33. 2.3.1. File sizes
  34. 2.3.2. Block sizes
  35. 2.3.3. Inode ratios
  36.  
  37. 3.     Papers, reports, and bibliographies
  38. 3.1.   From where are papers for distributed systems available?
  39. 3.2.   Where can I find other papers?
  40. 3.3.   Where can I find bibliographies?
  41.  
  42. 4.     General Internet-accessible resources
  43. 4.1.   Wide Area Information Service (WAIS) and World-Wide Web (WWW) servers
  44. 4.2.   Refdbms---a distributed bibliographic database system
  45. 4.3.   Willow -- the information looker-upper
  46. 4.4.   The comp.os.research archive
  47.  
  48. 5.     Disclaimer and copyright
  49.  
  50.  
  51. ------------------------------
  52. Subject: [1] Available software
  53. From: Available software
  54.  
  55. This section covers various software packages, operating systems
  56. distributions, and miscellaneous other such items which may be of
  57. interest to the operating systems research community.  If you have
  58. written, or know of, some software which you believe would be of
  59. fairly wide interest, please get in touch with the FAQ maintainer with
  60. a view to having a short spiel and availability information included
  61. here.
  62.  
  63. ------------------------------
  64. Subject: [1.1] Where can I find Unix process checkpointing and restoration packages?
  65. From: Available software
  66.  
  67. - [93-01-21-10-18.30] The Condor system is available via anonymous ftp
  68.   from ftp.cs.wisc.edu.  Condor works entirely at user level [no
  69.   kernel modifications required] but doesn't currently support
  70.   interprocess communication, signals, or fork().  Definitely worth a
  71.   look.
  72.  
  73. - Bennet S Yee implemented a `mostly portable' checkpoint and restore
  74.   package back around 1987.  When the programmer invokes the
  75.   checkpoint procedure, it saves the state to a file; when a second
  76.   process with the same program (but with different arguments) is
  77.   started which calls the restore procedure, it reads the old state
  78.   from the file.  Available via anonymous ftp from
  79.   play.trust.cs.cmu.edu:usr/bsy/pub/save_world.shar.Z.  This package
  80.   is known to work for Pmaxen, Sun4's, Sun3's, IBM RTs, and VAXen.
  81.   Porting it to a new architecture should be relatively simple -- look
  82.   at the README file.
  83.  
  84. ------------------------------
  85. Subject: [1.2] What threads packages are available for me to use?
  86. From: Available software
  87.  
  88. - [93-02-01-10-15.15] For DEC customers, versions of VMS after 5.5 and
  89.   Ultrix after 4.3 include bundled threads packages which implement
  90.   both DEC's proprietary CMA and draft 4 of IEEE Pthreads.
  91.  
  92. - SunOS 4.x provides, as standard, a lightweight process (lwp) library
  93.   which isn't compatible with anything else currently available;
  94.   Solaris 2.x comes with a threads library which is incompatible with
  95.   lwp as well as everything else.
  96.  
  97. - The POSIX / Ada-Runtime Project (PART) has made available an
  98.   implementation of draft 6 of the POSIX 1003.4a Pthreads
  99.   specification, which runs under SunOS 4.x; the current release is
  100.   version 1.20.  Available using anonymous ftp from
  101.   ftp.cs.fsu.edu:pub/PART.
  102.  
  103. - Stephen Crane has written a `fairly portable' threads package,
  104.   which runs under Sun 3, Sun 4, MIPS/RISCos, Linux, and 386BSD.  It
  105.   is available via anonymous ftp from dse.doc.ic.ac.uk:rex/lwp.tar.gz,
  106.   with documentation in the same directory named lwp.ps.gz.
  107.  
  108. - QuickThreads is a toolkit for building threads packages, written by
  109.   David Keppel.  It is available via anonymous ftp from
  110.   ftp.cs.washington.edu:pub/qt-001.tar.Z, with an accompanying tech
  111.   report at ftp.cs.washington.edu:tr/1993/05/UW-CSE-93-05-06.PS.Z.
  112.   The code as distributed includes ports for the Alpha, x86, 88000,
  113.   MIPS, SPARC, VAX, and KSR1.
  114.   
  115. [DCE threads? cthreads? pthreads implementations? others?]
  116.  
  117. ------------------------------
  118. Subject: [1.3] Where can I find operating systems distributions?
  119. From: Available software
  120.  
  121. This section covers the availability of several well-known systems;
  122. the only criterion for inclusion of a system here is that it be of
  123. interest to some segment of the OS research community (commercial
  124. systems will be accepted for inclusion, so long as they are pertinent
  125. to research).
  126.  
  127. ------------------------------
  128. Subject: [1.3.1] Distributed systems and microkernels
  129. From: Available software
  130.  
  131. - [93-03-31-22-49.53] As of July 1990 ACE is the distribution, support
  132.   and sales channel for Amoeba.  Due to overwhelming response from
  133.   non-profit organisations wishing to obtain Amoeba for their research
  134.   activities, VU is offering Amoeba 5.2 to research institutions for
  135.   more or less free (via ftp at no charge, or on tape for $500 on
  136.   Exabyte or $800 on QIC-24).  Amoeba currently supports 68020 and
  137.   68030-based VME board machines, as well at i386- and i486-based AT
  138.   PCs and Sun 3 and 4 machines.
  139.  
  140.   For further information on `commercial' Amoeba, you can contact ACE
  141.   by email at <amoeba@ace.nl>, by phone at +31 20 664 6416, or by fax
  142.   at +31 20 675 0389.  Universities interested in obtaining a license
  143.   should send mail to <amoeba-license@cs.vu.nl>, or fax to +31 20 642
  144.   7705.
  145.  
  146. - Chorus Systemes has special programmes for universities interested
  147.   in using Chorus.  For more information on the offerings available,
  148.   conditions, and other details, ftp to ftp.chorus.fr and get the
  149.   following ASCII files:
  150.     pub/README
  151.     pub/academic/README
  152.     pub/academic/offerings
  153.  
  154. - The Cronus object-oriented distributed system may be obtained via
  155.   ftp from pineapple.bbn.com; email <cronus-help@bbn.com> for
  156.   details of the account name and password.  Before attempting to get
  157.   the Cronus distribution, you must obtain, via anonymous ftp,
  158.   pineapple.bbn.com:Cronus-via-FTP-Terms.  Maintenance, hotline
  159.   support, and training for Cronus are available from BBN.  Send email
  160.   to the above address for information on these, or on obtaining a
  161.   commercial license.
  162.  
  163. - Horus is available for research use; contact Ken Birman
  164.   <ken@cs.cornell.edu> or Robbert van Renesse <rvr@cs.cornell.edu> for
  165.   details.
  166.  
  167. - Isis has not been publicly available since 1989, but may (I'm not
  168.   sure) still be obtained using anonymous ftp from ftp.uu.net or
  169.   ftp.cs.cornell.edu.  After 1989, the code was picked up by Isis
  170.   Distributed Systems, which has subsequently developed and supported
  171.   it.  The commercial version of Isis (available `at very low cost' to
  172.   academic institutions) is available from the company.  Email
  173.   <info@isis.com> for information, or call +1-212-979-7729 or
  174.   +1-607-272-6327.
  175.  
  176. - [92-09-19-08-55.18] Plan 9 is available to academic institutions on
  177.   CD-ROM; the distribution consists of around 350MB of source and
  178.   binaries.  For information on how to go about getting a license,
  179.   contact
  180.     Neera Kuckreja
  181.     AT&T Bell Laboratories
  182.     Room 2C-557
  183.     Murray Hill, NJ 07974
  184.     United States
  185.   As of September 1992, kernels existed for the Sun SLC, Sun4Cs of
  186.   various types, NeXTstations, MIPS Magnum 3000, SGI 4D series,
  187.   Gateway 486, AT&T Safari, `a whole bunch of' other PCs, and the
  188.   Gnot.
  189.  
  190.   Sydney University Basser Department of Computer Science has a port
  191.   of Plan 9 underway to the DEC Alpha at the moment.  A port to the
  192.   Sun 3 has been completed.  Contact <plan9info@cs.su.oz.au> for
  193.   details.
  194.  
  195. - QNX is available for academic applications through an education
  196.   support programme run by QNX Software Systems, whereby QNX systems
  197.   can be obtained for educational purposes at very low cost.  For
  198.   commercial and education availability and pricing, contact:
  199.     QNX Software Systems        QNX Software Systems
  200.     175 Terrence Matthews Cr.    Westendstr. 19
  201.     Kanata, Ontario K2M 1W8        6000 Frankfurt am Main 1
  202.     Canada                Germany
  203.  
  204.     1 800 363 9001            +49 69 9754 6156 x299
  205.     +1 (613) 591 0931
  206.     +1 (613) 591 3579 (fax)        +49 69 9754 6110 (fax)
  207.   Versions after 4.2 of QNX run on the i386 and later processors, with
  208.   a 16-bit kernel included for i286 machines, while version 4.1 will
  209.   run on i286 and above.
  210.  
  211. - [93-02-07-16-03.48] The Sprite Network Operating System is available
  212.   on CD-ROM.  The disc contains the source code and documentation for
  213.   Sprite, a research operating system developed at the University of
  214.   California, Berkeley.  All the research papers from the Sprite
  215.   project are also included on the disc.  This software on this disc
  216.   is primarily intended for research purposes, and is not really
  217.   intended to be used as a production system.  Boot images are
  218.   provided for Sun SPARCstations and DECstations.  The CD-ROM is in
  219.   ISO-9660 format with Rock Ridge extensions.  The disc contains about
  220.   550 megabytes of software.
  221.  
  222.   You can get an overview of the Sprite Project, and a complete list
  223.   of what is on this disc by anonymous ftp from
  224.   cdrom.com:pub/cdroms/sprite.
  225.  
  226.   If you would like a CD-ROM please send $25.  Add $4.95 if you would
  227.   like a caddy too.  S&H is $5 (per order, not per disc) for
  228.   US/Can/Mex, and $10 for overseas.  If you live in California, please
  229.   add sales tax.  You can send a check or money order, or you can
  230.   order with Mastercard/Visa/AmEx.
  231.     Bob Bruce <rab@cdrom.com>
  232.     Walnut Creek CDROM
  233.     1547 Palos Verdes Mall, Suite 260
  234.     Walnut Creek, CA 94596
  235.     United States
  236.  
  237.        1 800 786-9907 (USA only)
  238.       +1 510 947-5996
  239.       +1 510 947-1644 (fax)
  240.  
  241. - VSTa is a copylefted system written by Andrew Valencia
  242.   <vandys@cisco.com> which uses ideas from several research operating
  243.   systems in its implementation.  It is currently in an `experimental
  244.   but usable' state, and supports `lots of' POSIX, and runs on a
  245.   number of different PC configurations.  For further information,
  246.   send mail to <vsta-request@cisco.com>, or ftp to
  247.   ftp.cygnus.com:pub/embedded/vsta.
  248.  
  249. [Mach, Chorus, Clouds?, Choices?]
  250.  
  251. ------------------------------
  252. Subject: [1.3.2] Unix lookalikes
  253. From: Available software
  254.  
  255. - Linux is available via anonymous ftp from
  256.   tsx-11.mit.edu:pub/linux, ftp.funet.fi:pub/OS/Linux, and
  257.   sunsite.unc.edu:pub/Linux.  It is a freely-distributable System
  258.   V compatible Unix, and is covered by the GNU General Public License.
  259.   Linux runs on ISA bus PCs with i386 or better CPUs and at least 4
  260.   megabytes to run.
  261.  
  262. - 386BSD is available via ftp from agate.berkeley.edu:pub/386BSD or
  263.   ftp.uu.net:systems/unix/386BSD.  It lies mid-way between 4.3BSD Reno
  264.   and 4.4BSD internally, and contains no AT&T-copyrighted code.
  265.   386BSD runs on ISA bus PCs with i386 or better CPUs.
  266.  
  267. - NetBSD is available via ftp from agate.berkeley.edu:pub/NetBSD.
  268.  
  269. - FreeBSD is available via ftp from freebsd.cdrom.com:pub/FreeBSD,
  270.   ftp.cosy.sbg.ac.at:pub/mirror/FreeBSD, and
  271.   pdq.coe.montana.edu:pub/mirrors/unix/freebsd.
  272.  
  273. - The Hurd is the GNU operating system, being written by Michael
  274.   Bushnell.  It is based on Mach 3.0, and should be available on most
  275.   systems to which Mach has been ported.
  276.  
  277. ------------------------------
  278. Subject: [1.3.3] Others
  279. From: Available software
  280.  
  281. [93-03-18-10-19.02] Microsoft is making sources of Windows NT
  282. available under license to universities and research laboratories.
  283. You should have the appropriate officials contact Mark Lewin
  284. <marklew@microsoft.com> to get started on this process.
  285.  
  286.  
  287.  
  288. ------------------------------
  289. Subject: [2] Performance and workload studies
  290. From: Performance and workload studies
  291.  
  292. This section covers various different publicly-available traces and
  293. studies, libraries and source distributions, which may be of use.
  294.  
  295. ------------------------------
  296. Subject: [2.1] TCP internetwork traffic characteristics
  297. From: Performance and workload studies
  298.  
  299. - [92-10-20-15-04.39] Peter Danzig and Sugih Jamin of USC have made
  300.   available a report and a source library which simulates realistic
  301.   day-to-day network traffic between nodes.  The library, tcplib, `is
  302.   motivated by our observation that present-day wide-area tcp/ip
  303.   traffic cannot be accurately modeled with simple analytical
  304.   expressions, but instead requires a combination of detailed
  305.   knowledge of the end-user applications responsible for the traffic
  306.   and certain measured probability distributions'.
  307.  
  308.   The technical report and the source library it describes are
  309.   available via anonymous ftp from
  310.   jerico.usc.edu:pub/jamin/tcplib.  All you need to transfer to
  311.   use the library are: README, brkdn_dist.h, tcpapps.h, tcplib.1, and
  312.   one of libtcp* that matches your setup.  You need tcplib.tar.Z only
  313.   if you must generate the library yourself.  The file tcplibtr.ps.Z
  314.   is the PostScript version of the report.  The authors may be
  315.   contacted at <traffic@excalibur.usc.edu>.
  316.  
  317. - [93-08-09-15-15.54] Vern Paxson of Lawrence Berkeley Laboratories
  318.   has a report available via anonymous ftp which describes analytic
  319.   models for wide-area TCP connections based upon a set of wide-area
  320.   traffic traces.  The report may be obtained from
  321.   ftp.ee.lbl.gov:WAN-TCP-models.{1,2}.ps.Z.
  322.  
  323. - [93-05-13-10-54.09] Vern Paxson also has made available another
  324.   report, ftp.ee.lbl.gov:WAN-TCP-growth-trends.ps.Z, which provides an
  325.   analysis of the growth trends of a medium-sized research
  326.   laboratory's wide-area TCP connections over a period of more than
  327.   two years.
  328.  
  329. ------------------------------
  330. Subject: [2.2] File system traces
  331. From: Performance and workload studies
  332.  
  333. - Chris Ruemmler has done a study on low-level disk access patterns
  334.   for a workstation, a server, and a time-shared system which appeared
  335.   in the Winter 1993 USENIX proceedings.  A copy may be obtained via
  336.   anonymous ftp from ftp.hpl.hp.com:wilkes/HPL-92-152.ps.Z.
  337.  
  338. - Stephen Russell <smr@cs.unsw.oz.au> has instrumented the SunOS 4.1.x
  339.   kernel running on Sun 3 machines.  The system allows time-stamped
  340.   event records to be obtained from various points in the kernel.
  341.   Events can be categorised (eg, paging, file system, etc), and are
  342.   read via pseudo-devices.  Ioctl calls allow substreams to be
  343.   enabled/disabled, buffer status checked, etc.  An external high
  344.   resolution timer is used for timestamping.
  345.  
  346. - [93-05-09-09-23.32] The traces used in `Measurements of a
  347.   distributed file system' (SOSP 1991) may be obtained via anonymous
  348.   ftp from sprite.berkeley.edu:pub/sosp-traces.  An accompanying
  349.   PostScript file, written by John H. Hartman
  350.   <jhh@sprite.berkeley.edu>, which describes the trace file format,
  351.   how to interpret the trace records, and other information may be
  352.   found in the above directory as sospTraces.ps.Z.
  353.  
  354. - [93-06-18-13-02.48] Hidehiro Ishii <ishii@tsl.cl.nec.co.jp> has
  355.   written a system which traces the NFS accesses seen by an NFS server
  356.   and calculates statistics based on such traces.  Contact the author
  357.   for details.
  358.  
  359. ------------------------------
  360. Subject: [2.3] Modern Unix file and block sizes
  361. From: Performance and workload studies
  362.  
  363. The following sections are lifted more or less verbatim from a number
  364. of traces which were co-ordinated and analysed by Gordon Irlam
  365. <gordoni@netcom.com>.  The numbers quoted below are based on Unix file
  366. size data for 12 million files, residing on 1000 file systems, with a
  367. total size of 250 gigabytes.
  368.  
  369. ------------------------------
  370. Subject: [2.3.1] File sizes
  371. From: Performance and workload studies
  372.  
  373. There is no such thing as an average file system.  Some file systems
  374. have lots of little files.  Others have a few big files.  However as a
  375. mental model the notion of an average file system is invaluable.
  376.  
  377. The following table gives a break down of file sizes and the amount of
  378. space they consume.
  379.  
  380.    file size       #files  %files  %files   disk space  %space  %space
  381. (max. bytes)                        cumm.         (Mb)           cumm.
  382.            0       147479     1.2     1.2          0.0     0.0     0.0
  383.            1         3288     0.0     1.2          0.0     0.0     0.0
  384.            2         5740     0.0     1.3          0.0     0.0     0.0
  385.            4        10234     0.1     1.4          0.0     0.0     0.0
  386.            8        21217     0.2     1.5          0.1     0.0     0.0
  387.           16        67144     0.6     2.1          0.9     0.0     0.0
  388.           32       231970     1.9     4.0          5.8     0.0     0.0
  389.           64       282079     2.3     6.3         14.3     0.0     0.0
  390.          128       278731     2.3     8.6         26.1     0.0     0.0
  391.          256       512897     4.2    12.9         95.1     0.0     0.1
  392.          512      1284617    10.6    23.5        566.7     0.2     0.3
  393.         1024      1808526    14.9    38.4       1442.8     0.6     0.8
  394.         2048      2397908    19.8    58.1       3554.1     1.4     2.2
  395.         4096      1717869    14.2    72.3       4966.8     1.9     4.1
  396.         8192      1144688     9.4    81.7       6646.6     2.6     6.7
  397.        16384       865126     7.1    88.9      10114.5     3.9    10.6
  398.        32768       574651     4.7    93.6      13420.4     5.2    15.8
  399.        65536       348280     2.9    96.5      16162.6     6.2    22.0
  400.       131072       194864     1.6    98.1      18079.7     7.0    29.0
  401.       262144       112967     0.9    99.0      21055.8     8.1    37.1
  402.       524288        58644     0.5    99.5      21523.9     8.3    45.4
  403.      1048576        32286     0.3    99.8      23652.5     9.1    54.5
  404.      2097152        16140     0.1    99.9      23230.4     9.0    63.5
  405.      4194304         7221     0.1   100.0      20850.3     8.0    71.5
  406.      8388608         2475     0.0   100.0      14042.0     5.4    77.0
  407.     16777216          991     0.0   100.0      11378.8     4.4    81.3
  408.     33554432          479     0.0   100.0      11456.1     4.4    85.8
  409.     67108864          258     0.0   100.0      12555.9     4.8    90.6
  410.    134217728           61     0.0   100.0       5633.3     2.2    92.8
  411.    268435456           29     0.0   100.0       5649.2     2.2    95.0
  412.    536870912           12     0.0   100.0       4419.1     1.7    96.7
  413.   1073741824            7     0.0   100.0       5004.5     1.9    98.6
  414.   2147483647            3     0.0   100.0       3620.8     1.4   100.0
  415.  
  416. A number of observations can be made:
  417.   - the distribution is heavily skewed towards small files
  418.   - but it has a very long tail
  419.   - the average file size is 22k
  420.   - pick a file at random: it is probably smaller than 2k
  421.   - pick a byte at random: it is probably in a file larger than 512k
  422.   - 89% of files take up 11% of the disk space
  423.   - 11% of files take up 89% of the disk space
  424.  
  425. Such a heavily skewed distribution of file sizes suggests that, if one
  426. were to design a file system from scratch, it might make sense to
  427. employ radically different strategies for small and large files.
  428.  
  429. The seductive power of mathematics allows us treat a 200 byte and a
  430. 2MB file in the same way.  But do we really want to?  Are there any
  431. problems in engineering where the same techniques would be used in
  432. handling physical objects that span 6 orders of magnitude?
  433.  
  434. A quote from sci.physics that has stuck with me: `When things change
  435. by 2 orders of magnitude, you are actually dealing with fundamentally
  436. different problems'.
  437.  
  438. People I trust say they would have expected the tail of the above
  439. distribution to have been even longer.  There are at least some files
  440. in the 1-2G range.  They point out that DBMS shops with really large
  441. files might have been less inclined to respond to a survey like this
  442. than some other sites.  This would bias the disk space figures, but it
  443. would have no appreciable effect on file counts.  The results gathered
  444. would still be valuable because many static disk layout issues are
  445. determined by the distribution of small files and are largely
  446. independent of the potential existence of massive files.
  447.  
  448. (It should be noted that many popular DBMSs, such as Oracle, Sybase,
  449.  and Informix, use raw disk partitions instead of Unix file systems
  450.  for storing data, hence the difficulty in gathering data about them
  451.  in a uniform way.)
  452.  
  453. ------------------------------
  454. Subject: [2.3.2] Block sizes
  455. From: Performance and workload studies
  456.  
  457. The last block of a file is normally only partially occupied, and so
  458. as block sizes are increased so too will the the amount of wasted disk
  459. space.
  460.  
  461. The following historical values for the design of the BSD FFS are
  462. given in `Design and implementation of the 4.3BSD Unix operating
  463. system':
  464.  
  465. fragment size   overhead
  466.    (bytes)        (%)
  467.       512         4.2
  468.      1024         9.1
  469.      2048        19.7
  470.      4096        42.9
  471.  
  472. Files have clearly gotten larger since then; I obtained the following
  473. results:
  474. fragment size   overhead
  475.    (bytes)        (%)
  476.       128         0.3
  477.       256         0.6
  478.       512         1.1
  479.      1024         2.5
  480.      2048         5.4
  481.      4096        12.3
  482.      8192        27.8
  483.     16384        61.2
  484.  
  485. By default the BSD FFS typically uses a 1k fragment size.  Perhaps
  486. this size is no longer optimal and should be increased.
  487.  
  488. (The FFS block size is constrained to be no more than 8 times the
  489.  fragment size.  Clustering is a good way to improve throughput for
  490.  FFS based file systems, but it doesn't do very much to reduce the not
  491.  insignificant FFS computational overhead.)
  492.  
  493. It is interesting to note that even though most files are less than 2K
  494. in size, having a 2K block size wastes very little space, because disk
  495. space consumption is so totally dominated by large files.
  496.  
  497. ------------------------------
  498. Subject: [2.3.3] Inode ratios
  499. From: Performance and workload studies
  500.  
  501. The BSD FFS statically allocates inodes.  By default one inode is
  502. allocated for every 2K of disk space.  Since an inode consumes 128
  503. bytes this means that by default 6.25% of disk space is consumed by
  504. inodes.
  505.  
  506. It is important not to run out of inodes since any remaining disk
  507. space is then effectively wasted.  Despite this allocating 1 inode for
  508. every 2K is excessive.
  509.  
  510. For each file system studied I worked out the minimum sized disk it
  511. could be placed on.  Most disks needed to be only marginally larger
  512. than the size of their files, but a few disks, having much smaller
  513. files than average, needed a much larger disk---a small disk had
  514. insufficient inodes.
  515.  
  516. bytes per   overhead
  517.   inode       (%)
  518.    1024      12.5
  519.    2048       6.3
  520.    3072       4.5
  521.    4096       4.2
  522.    5120       4.4
  523.    6144       4.9
  524.    7168       5.5
  525.    8192       6.3
  526.    9216       7.2
  527.   10240       8.3
  528.   11264       9.5
  529.   12288      10.9
  530.   13312      12.7
  531.   14336      14.6
  532.   15360      16.7
  533.   16384      19.1
  534.   17408      21.7
  535.   18432      24.4
  536.   19456      27.4
  537.   20480      30.5
  538.  
  539. Clearly, the current default of one inode for every 2K of data is too
  540. small.  Earlier results suggested that allocating one inode for every
  541. 5-6k was in some sense optimal, and allocating one inode for every 8k
  542. would only be 0.4% worse.  The new data suggests one inode for every
  543. 4k is optimal, and allocating one inode for every 8k would be 2.1%
  544. worse.
  545.  
  546. The analysis technique I used is very sensitive to even a few file
  547. systems with very small files.
  548.  
  549. The main source of file systems with lots of small files would appear
  550. to be netnews servers.  The typical Usenet message would appear to be
  551. 1-2k in length.  Ignoring such file systems would drastically alter
  552. the conclusions I reach.  If, as I believe might already be the case,
  553. news servers are manually tuned to have a lower than normal bytes per
  554. inode ratio, it would then be possible to justify setting the default
  555. ratio much higher.
  556.  
  557. Clearly it is best if the file system dynamically allocate inodes; I
  558. believe AIX does this for instance.  Systems that statically allocate
  559. inodes should probably increase the bytes per inode ratio, but it is
  560. not clear to exactly what value.  The engineer in me says `it is
  561. important to play this one conservatively: stick to 6k', the artist
  562. goes `as Chris Torek says: aesthetics, 8k'.
  563.  
  564.  
  565.  
  566. ------------------------------
  567. Subject: [3] Papers, reports, and bibliographies
  568. From: Papers, reports, and bibliographies
  569.  
  570. Network-available documents are listed in this section.  I'd like to
  571. see information for obtaining other sets of reports which aren't
  572. electronically-available included here as well, at some stage.
  573.  
  574. ------------------------------
  575. Subject: [3.1] From where are papers for distributed systems available?
  576. From: Papers, reports, and bibliographies
  577.  
  578. Amoeba
  579.     ftp.cs.vu.nl:amoeba
  580.     ftp.cse.ucsc.edu:pub/amoeba
  581.  
  582. Arjuna
  583.     arjuna.ncl.ac.uk:pub/Arjuna
  584.  
  585. Choices
  586.     choices.cs.uiuc.edu:Papers
  587.  
  588. Chorus
  589.     ftp.chorus.fr:pub/chorus-reports
  590.     cse.ogi.edu:pub/chorus/reports
  591.  
  592. Clouds
  593.     helios.cc.gatech.edu:pub/papers
  594.  
  595. Cronus
  596.     pineapple.bbn.com:doc
  597.  
  598. Guide
  599.     imag.fr:pub/GUIDE/doc
  600.  
  601. Horus
  602.     ftp.cs.cornell.edu:pub/Horus
  603.  
  604. Isis
  605.     ftp.cse.ucsc.edu:pub/bib/isis.bib
  606.     ftp.cs.cornell.edu:pub
  607.  
  608. Mach
  609.     mach.cs.cmu.edu:doc
  610.  
  611. Plan 9
  612.     research.att.com:dist/plan9doc
  613.     research.att.com:dist/plan9man
  614.  
  615. Spring
  616.     http://www.sun.com/smli
  617.  
  618. X kernel
  619.     cs.arizona.edu:pub/xkernel
  620.  
  621. Papers covering Amoeba, Choices, Chorus, Clouds, the Hurd, Guide,
  622. Mach, Mars, NonStop, and Plan 9 are also available via anonymous ftp
  623. from ftp.funet.fi:pub/doc/OS.
  624.  
  625. [I'd like to find the authoritative home for V---Mars and NonStop are
  626.  a bit more obscure, I think; they certainly aren't asked after much]
  627.  
  628. ------------------------------
  629. Subject: [3.2] Where can I find other papers?
  630. From: Papers, reports, and bibliographies
  631.  
  632. Angel
  633.     ftp.cs.city.ac.uk:papers
  634.  
  635. Mungi
  636.     ftp.vast.unsw.edu.au:pub/Mungi
  637.  
  638. QNX [93-09-19-22-22.26]
  639.     ftp.cse.ucsc.edu:pub/qnx
  640.  
  641. Solaris 2.x [93-02-23-12-12.43]
  642.     opcom.sun.ca:pub/docs/papers
  643.     opcom.sun.ca:pub/docs/solaris
  644.  
  645. Windows NT [92-09-18-11-46.16]
  646.     ftp.uu.net:vendor/microsoft/win32-api
  647.     ftp.uu.net:vendor/microsoft/isv-communications
  648.  
  649. ------------------------------
  650. Subject: [3.3] Where can I find bibliographies?
  651. From: Papers, reports, and bibliographies
  652.  
  653. Load balancing
  654.     ftp.cse.ucsc.edu:pub/bib/load-balancing.bib
  655.  
  656. Multimedia operating systems [94-04-15-23-29.51]
  657.     cs.ucsd.edu:pub/multimedia
  658.     ftp.cse.ucsc.edu:pub/bib/mmos.bib
  659.  
  660. Object-oriented operating systems
  661.     ftp.cse.ucsc.edu:pub/bib/ooos.bib.Z
  662.     ftp.inria.fr:INRIA/bib/ooos.bib.gz
  663.  
  664. Parallel and distributed I/O
  665.     ftp.cse.ucsc.edu:pub/bib/io.bib
  666.  
  667. Recommended books
  668.     ftp.maths.tcd.ie:pub/bosullvn/comp.os.research/recommended.bib
  669.  
  670. Sprite network operating system
  671.     sprite.berkeley.edu:pub/sprite
  672.  
  673. See also the section on General Net Resources.
  674.  
  675. [There's quite a lot more at ftp.cse.ucsc.edu:pub/bib, if anyone
  676.  wants to add more to this list.]
  677.  
  678.  
  679.  
  680. ------------------------------
  681. Subject: [4] General Internet-accessible resources
  682. From: General Internet-accessible resources
  683.  
  684. This section contains information about a variety of services
  685. available to the OS research community via the Internet.
  686.  
  687. ------------------------------
  688. Subject: [4.1] Wide Area Information Service (WAIS) and World-Wide Web (WWW) servers
  689. From: General Internet-accessible resources
  690.  
  691. [92-09-21-16-38.23] Loughborough University high-performance
  692. networking and distributed systems archive may be accessed via World
  693. Wide Web at http://hill.lut.ac.uk/DS-Archive/.  This archive contains,
  694. according to Jon Knight <J.P.Knight@lut.ac.uk>, the organiser:
  695.  
  696. - Technical reports and papers written at LUT by the networks and
  697.   distributed systems researchers in the Department of Computer
  698.   Studies.
  699.  
  700. - Technical reports, papers and theses which have been produced at
  701.   other sites and then made available for public electronic access.
  702.  
  703. - Software which is of use in research or which has been produced by a
  704.   specific research project.
  705.  
  706. - Details of relevant conferences, collected from a variety of sources
  707.   (USENET, email, flyers, etc).
  708.  
  709. - Information on ongoing research projects.
  710.  
  711. - Bibliographies that have been generated for research at LUT and also
  712.   access to other WAIS indexed bibliographies, both at LUT and
  713.   elsewhere.
  714.  
  715. - A list of contacts in the field, with details of their research
  716.   interests.  This is entirely voluntary (i.e. people have agreed to
  717.   Jon entering their details rather than him just rooting round the
  718.   Internet to build up the information).
  719.  
  720. Carnegie Mellon University's computer science department has a home
  721. page for the Mach project at the following URL:
  722. http://www.cs.cmu.edu:8001/afs/cs.cmu.edu/project/mach/public/www/mach.html.
  723.  
  724. Bibliographies in the comp.os.research collection are accessible via
  725. WAIS from UCSC.
  726.     (:source 
  727.      :version  3 
  728.      :ip-address "128.114.134.19"
  729.      :ip-name "ftp.cse.ucsc.edu"
  730.      :tcp-port 210
  731.      :database-name "os-bibliographies"
  732.      :cost 0.00 
  733.      :cost-unit :free 
  734.      :maintainer "paul@cse.ucsc.edu"
  735.      :description "Server created with WAIS release 8 b5
  736.         on Jul 9 22:38:27 1992 by paul@cse.ucsc.edu
  737.         The files of type bibtex used in the index
  738.         were: /home/ftp/pub/bib"
  739.     )
  740.  
  741.  
  742. ------------------------------
  743. Subject: [4.2] Refdbms---a distributed bibliographic database system
  744. From: General Internet-accessible resources
  745.  
  746. [92-10-01-11-39.32] The 13th alpha release of refdbms version 3,
  747. developed by John Wilkes of the Concurrent Systems Project at
  748. Hewlett-Packard Laboratories and Richard Golding of the Concurrent
  749. Systems Laboratory at UC Santa Cruz, is now available.  It can be
  750. obtained by anonymous ftp from ftp.cse.ucsc.edu:pub/refdbms.  The
  751. system has been tested on Sun 3 and 4 systems running SunOS 4.1.x, and
  752. on DECstations running Ultrix 4.1.  It is an experiment in building
  753. weak-consistency wide-area distributed applications, and the databases
  754. currently available for the system have a good systems coverage.
  755.  
  756. The system includes tools to query the database, to produce
  757. bibliographies for LaTeX documents, and to enter new references into
  758. the database.  It is part of ongoing research into wide-area
  759. distributed information systems on the Internet.
  760.  
  761. Features include:
  762.  
  763. - Distributed databases: a reference database can be shared among
  764.   multiple sites.  Updates can be entered at any site, and will be
  765.   propagated to the other sites holding a replica of the database.
  766.  
  767. - Multiple databases: every database has a name, and users specify the
  768.   order in which databases will be searched.
  769.  
  770. - Private databases: databases can be private, available site-wide, or
  771.   they can be made available to other sites.
  772.  
  773. - Database query by keyword, author, and title word.
  774.  
  775. - Translator for refer-format databases.
  776.  
  777. - Usable with LaTeX documents: the internal refdbms format can be
  778.   translated into a special BibTeX format.
  779.  
  780. An up-to-date list of bibliographies exported by various institutions
  781. may be obtained using anonymous ftp from
  782. ftp.cse.ucsc.edu:pub/refdbms/current-databases.
  783.  
  784.  
  785. ------------------------------
  786. Subject: [4.3] Willow -- the information looker-upper
  787. From: General Internet-accessible resources
  788.  
  789. Washington University's Willow system provides a Motif-based user
  790. interface to a heterogeneous collection of on-line bibliographic
  791. databases.  It will compile and run on most systems which provide a
  792. Motif library.
  793.  
  794. For further information, see the Willow home page at
  795. http://www.cac.washington.edu/willow/home.html.
  796.  
  797.  
  798. ------------------------------
  799. Subject: [4.4] The comp.os.research archive
  800. From: General Internet-accessible resources
  801.  
  802. [93-02-18-21-18.31] An archive of all messages posted to
  803. comp.os.research since 1988 is maintained at UC Santa Cruz.  It may be
  804. accessed via anonymous ftp at
  805. ftp.cse.ucsc.edu:pub/comp.os.research.  The archive is organised
  806. by year.
  807.  
  808. Postings may also be found via WAIS at UCSC's Computer Science gopher
  809. hole:
  810.     (:source 
  811.      :version  3 
  812.      :ip-address "128.114.134.19"
  813.      :ip-name "ftp.cse.ucsc.edu"
  814.      :tcp-port 210
  815.      :database-name "comp-os-research"
  816.      :cost 0.00 
  817.      :cost-unit :free 
  818.      :maintainer "paul@cse.ucsc.edu"
  819.  
  820.      :description "Server created with WAIS release 8 b5
  821.         on Jul 9 03:51:11 1992 by paul@cse.ucsc.edu
  822.         The files of type netnews used in the index
  823.         were: /home/ftp/pub/comp.os.research"
  824.     )
  825.  
  826.  
  827. ------------------------------
  828. Subject: [5] Disclaimer and copyright
  829. From: Disclaimer and copyright
  830.  
  831. Note that this document is provided as is.  The information in it is
  832. not warranted to be correct; you use it at your own risk.
  833.  
  834. Following recent reports on the <faq-maintainers> list I think it wise
  835. to change the copyright:
  836.  
  837. NOTICE OF COPYRIGHT AND PERMISSIONS
  838.  
  839. Answers to Frequently Asked Questions for comp.os.research (hereafter
  840. referred to as These Articles) are Copyright 1994 by Bryan O'Sullivan
  841. <bosullvn@tcd.ie>.  They may be reproduced and distributed in whole or
  842. in part, subject to the following conditions:
  843.  
  844. - This copyright and permission notice must be retained on all
  845.   complete or partial copies of These Articles.
  846.  
  847. - These Articles may be copied or distributed in part or in full for
  848.   personal or educational use.  Any translation, derivative work, or
  849.   copies made for other purposes must be approved by the copyright
  850.   holder before distribution, unless otherwise stated.
  851.  
  852. - If you distribute These Articles, instructions for obtaining the
  853.   complete current versions of them free or at cost price must be
  854.   included.  Redistributors must make reasonable efforts to maintain
  855.   current copies of These Articles.
  856.  
  857. Exceptions to these rules may be granted, and I shall be happy to
  858. answer any questions about this copyright notice -- write to Bryan
  859. O'Sullivan, 14 Pleasant Drive, Mount Pleasant, Waterford, Ireland or
  860. email <bosullvn@tcd.ie>.  These restrictions are here to protect the
  861. contributors, not to restrict you as educators and learners.
  862.  
  863.